标题:Time Series Forecasting with Transformer Models and Application to Asset Management
作者:Edmond LEZMI、Jiali XU
开篇深度学习的发展为我们创建下一代时间序列预测模型提供了强大的工具。深度人工神经网络,作为一种完全以数据驱动的方式学习时间动态的方法,特别适合寻找输入和输出之间复杂的非线性关系的挑战。最初,循环神经网络及其扩展的LSTM网络被设计用于处理时间序列中的顺序信息。然后,卷积神经网络被用于预测时间序列,因为它们在图像分析任务中的成功。 Transformer模型随后于2017年由谷歌发布(Vaswani et al., 2017),其设计目的是使用注意力机制处理序列数据,以解决自然语言处理(如机器翻译)中的序列学习问题。本质上,Transformer模型使我们能够将一个域的输入序列转换为另一个域的输出序列。例如,我们可以使用Transformer模型训练机器人将英语句子翻译成法语。打个比方,如果我们把时间序列的一个片段看作是一种语言的句子,下面的片段看作是另一种语言的句子,那么这个多步时间序列预测问题也是一个序列学习问题。因此,Transformer模型也可用于解决时间序列分析中的预测问题。如Wen et al.(2022)所述,Transformer模型的许多变种已成功应用于时间序列预测任务,如Li et al.(2019)和Zhou et al.(2021)。随着Transformer模型架构的提出,深度学习在时间序列预测的应用也越来越广泛。针对时间序列预测存在的难点,越来越多的Transformer的架构被提出,例如Temporal fusion transformers,Informer,Autoformer及Crossformer等。Transformer模型使用了seq2seq架构,其灵活性允许我们处理更复杂的序列学习问题。利用注意力机制,我们可以捕捉序列中元素之间的长期依赖关系,特别是利用多头注意力会从不同方面捕捉序列中的信息。此外,除了我们应用于编码器和解码器的自注意机制外,我们还使用另一种注意机制来捕捉编码器和解码器之间的相关性。由于自关注机制不按时间顺序分析它们的输入,Transformer模型不太可能受到消失或爆炸梯度问题的影响。Transformer模型的另一个优点是它们的并行化。由于采用了多头注意机制,Transformer模型中的每个头都可以捕获输入中的元素与不同标准上所有其他元素的关系。而RNN模型需要将数据按时间顺序逐一输入,这使得其无法并行化。通过理解Transformer模型的注意力机制原理和seq2seq架构,我们可以将这些先进的机器学习技术应用于时间序列预测,特别是多时段多元时间序列预测,如下图所示。在这类任务中,我们不仅需要学习时间序列中的时间关系来为动态系统的演化建模,还需要学习多元数据中的空间关系来理解它们是如何相互影响的。在金融领域,时间序列预测是一项常见的任务。Transformer在金融时序预测中,一般有两类应用场景:只使用Encoder做单步预测如下所示,如果我们只使用Transformer模型的编码器部分,并将编码器输出直接连接到最后一层,则该模型类似于传统的RNN的多对一预测,但采用了自我注意机制。因此,我们可以在一步预测问题中使用该模型,就像我们经常使用RNN或LSTM等递归模型一样,这些递归模型可以完全被编码器取代,因为它允许更灵活的并行化,更有效的长期记忆,以及更少的消失或爆炸梯度问题。我们还可以通过修改模型最后一层的激活函数来处理不同的问题,如分类问题,处理回归问题。使用全模型(Encoder和Decoder)做多步预测传统的多步预测有两种方式,包括迭代法和直接预测法(如下图所示),无论是使用迭代法还是直接法,一步预测模型都难以应用于多步预测任务。由于Transformer模型中的seq2seq架构,我们可以使用这些模型来处理多步预测问题。
然而,多期投资组合优化模型在实践中应用较少。一个原因是,准确估计多个时期甚至一个时期的回报/风险可能是相当具有挑战性的。在MVO模型的框架下,我们需要估计投资组合中资产的预期收益向量µ和方差-协方差(VCV)矩阵Σ。此外,VCV矩阵可以分为波动率向量和协方差矩阵。经验上,预期收益向量被认为是MVO模型中这三种输入中最难估计的,而协方差矩阵通常被认为比预期收益和波动率更稳定。因此,波动率预测是定量研究中的一个重要问题。 波动性作为衡量市场风险的标准,被广泛应用于整个金融行业的各种应用中。特别地,所有传统的投资组合构建方法都将资产的波动性作为模型的输入,无论是均值-方差优化方法还是风险平价/风险预算方法。波动率预测问题的核心可以看作是一个时间序列预测问题。在我们的研究中,我们将利用Transformer模型中的注意力机制和seq2seq架构来解决这些问题。 在实验中,我们并没有直接使用Transformer模型预测整个VCV矩阵,而是分别预测各资产的波动率,然后使用1年历史资产收益率和预测的波动率构建协方差矩阵构建VCV矩阵。其原因是Transformer模型不能保证返回正的半定矩阵,而多元时间序列预测需要模型中更复杂的结构和更多的数据来训练模型。因此,通常很难获得好的结果。 策略的调仓期是月度调仓,但我们使用周度的数据进行波动率预测,也就是需要一次预测未来四个周的波动率(如下图所示),这正是一个多步预测模型。在我们的实验中,我们考虑了三种不同的投资组合配置方法:1、基于MVO的每月调仓2、基于风险平价每月调仓3、基于多期MVO的每周调仓 下图展示了回测结果。鉴于我们的测试期恰逢Covid-19和俄乌战争造成的经济挑战期,而所有三个投资组合都是只做多的投资组合,它们都在2022年经历了重大损失。然而,使用Transformer模型的预测作为输入的投资组合的业绩优于使用历史估计的投资组合。使用Transformer模型的投资组合具有更高的Sharpe比率。我们的每周再平衡多期MVO投资组合表现优于单期MVO投资组合。由于风险平价投资组合仅使用VCV矩阵的估计作为输入,故我们不包括模型中对回报的估计误差,这些误差通常较VCV矩阵更难估计。因此,在这一经济充满挑战的时期,风险平价投资组合的表现优于MVO投资组合。 最后 正如我们在本文中描述的那样,在金融中应用机器学习技术时的主要困难是金融数据中的信噪比往往较弱。因此,下一阶段的研究重点是金融数据的去噪和标注,这是机器学习技术在金融领域成功应用的关键。特征工程对于时间序列预测也很重要,我们可以通过模式分解技术将时间序列分解为趋势、季节性和噪声成分。将这些方法与深度学习模型结合使用是一个有趣的研究课题。其次,正如我们在关于图神经网络的工作论文(Pacreau et al., 2021)中描述的那样,注意机制也被用于图注意层(GAT)中,以捕获数据维度之间的底层关系。因此,尝试将Transformer模型和图神经网络(GNNs)相结合,来管理多元的、时空的时间序列数据,如流量预测,是很有效的。一些研究人员声称,这种模型组合可以提高性能,并在时空时间序列预测中更好地理解数据的因果关系,如Cai et al.(2020)和Xu et al.(2020)。在金融领域,多家公司之间的关联关系或供应链关系可以看作是一种空间关系。因此,将Transformer和GNN结合起来,对时间序列的动态和维度之间的依赖性进行建模是我们未来研究的一个重要途径。这将为一个新的研究领域打开大门,以捕捉财务数据中更复杂的关系,并改进量化投资策略。参考文献Cai, L., Janowicz, K., Mai, G., Yan, B. and Zhu, R. (2020), Traffic Transformer: Capturing the Continuity and Periodicity of Time Series for Traffic Forecasting, Transactions in GIS, 24(3), pp. 736-755.Vapnik, V. (2000), The Structure of Statistical Learning Theory, Second edition, Springer.Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L. and Polosukhin, I. (2017), Attention is all you need, NIPS’17: Proceedings of the 31st International Conference on Neural Information Processing Systems.Pacreau, G., Lezmi, E. and Xu, J. (2021), Graph Neural Networks for Asset Management, ResearchGate, https://www.researchgate.net/publication/356634779.